Une nouvelle mesure pour l'évaluation des méthodes d'extraction de thématiques : la Vraisemblance Généralisée
نویسندگان
چکیده
Résumé. Les méthodes dédiées à l’extraction automatique de thématiques sont issues de domaines variés : linguistique computationnelle, TAL, algèbre linéaire, statistique, etc. A ces méthodes spécifiques, peuvent s’ajouter des méthodes adaptées d’autres domaines, notamment de l’apprentissage automatique non supervisé. Les résultats produits par l’ensemble de ces méthodes prennent des formes hétérogènes : partitions de documents, distributions de probabilités sur les mots, matrices. Cela pose clairement un problème pour les comparer de manière uniforme. Dans cet article, nous proposons une nouvelle mesure de qualité, intitulée Vraisemblance Généralisée, pour permettre une évaluation et ainsi la comparaison de différentes méthodes d’extraction de thématiques. Les résultats, obtenus sur un corpus de documents Web autour des élections présidentielles françaises de 2012, ainsi que sur le corpus Associated Press, montrent la pertinence de la mesure proposée.
منابع مشابه
Évaluation et Prédiction de la Centralité de Groupes de Recherche dans un Réseau de Collaborations Scientifiques
Résumé. De nos jours, il y a un fort intérêt pour de nouvelles méthodes d’évaluation des groupes de recherche afin de quantifier l’impact de leur travail sur toute la communauté scientifique et de tenter de prédire leurs performances dans le futur. Dans ce contexte, nous proposons une nouvelle approche hybride qui mesure la centralité d’un groupe de chercheurs publiants. Cette mesure profite de...
متن کاملParameter estimation for 3-parameter generalized pareto distribution by the principle of maximum entropy (POME)
Abstract The principle of maximum entropy (POME) is employed to derive a new method of parameter estimation for the 3-parameter generalized Pareto (GP) distribution. Monte Carlo simulated data are used to evaluate this method and compare it with the methods of moments (MOM), probability weighted moments (PWM), and maximum likelihood estimation (MLE). The parameter estimates yielded by the POME ...
متن کاملDétection de séquences atypiques basée sur un modèle de Markov d'ordre variable
Résumé. Récemment, le nombre et le volume des bases de données séquentielles biologiques ont augmenté de manière considérable. Dans ce contexte, l’identification des anomalies est essentielle. La plupart des approches pour les extraire se fondent sur une base d’apprentissage ne contenant pas d’outlier. Or, dans de très nombreuses applications, les experts ne disposent pas d’une telle base. De p...
متن کاملAnalyse de dissimilarités par arbre d'induction
Résumé. Dans cet article, nous considérons des objets pour lesquels nous disposons d’une matrice des dissimilarités et nous nous intéressons à leurs liens avec des attributs. Nous nous centrons sur l’analyse de séquences d’états pour lesquelles les dissimilarités sont données par la distance d’édition. Toutefois, les méthodes développées peuvent être étendues à tout type d’objets et de mesure d...
متن کاملUne nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2013